Chuỗi thời gian là gì? Các nghiên cứu khoa học liên quan
Chuỗi thời gian là tập hợp dữ liệu được ghi lại theo thứ tự thời gian, thường cách đều nhau, dùng để phân tích và dự báo các hiện tượng thay đổi theo thời gian. Mỗi điểm dữ liệu phản ánh giá trị tại một thời điểm cụ thể, cho phép nhận diện xu hướng, mùa vụ, chu kỳ và nhiễu động trong các lĩnh vực như tài chính, y tế, khí hậu.
Định nghĩa chuỗi thời gian
Chuỗi thời gian (time series) là một tập hợp các điểm dữ liệu được thu thập, ghi nhận và sắp xếp theo thứ tự thời gian. Mỗi điểm dữ liệu trong chuỗi phản ánh giá trị của một đại lượng quan sát tại một thời điểm cụ thể, và thường được ghi lại ở các khoảng cách thời gian đều nhau như giây, phút, giờ, ngày, tháng hoặc năm. Đây là kiểu dữ liệu có cấu trúc phụ thuộc theo thời gian, trong đó giá trị hiện tại thường bị ảnh hưởng bởi các giá trị trong quá khứ.
Chuỗi thời gian có vai trò quan trọng trong thống kê, học máy, tài chính, kinh tế học, y học, năng lượng, khí tượng học và các ngành kỹ thuật. Ví dụ, phân tích giá cổ phiếu theo ngày, nhiệt độ trung bình theo giờ, sản lượng tiêu thụ điện theo tuần, hay số lượt truy cập website theo phút, tất cả đều là các ứng dụng của chuỗi thời gian. Việc hiểu và mô hình hóa chuỗi thời gian là nền tảng cho việc dự báo và ra quyết định dựa trên dữ liệu lịch sử.
Chuỗi thời gian có thể được biểu diễn bằng cặp , trong đó là thời điểm quan sát thứ và là giá trị đo được tại thời điểm đó. Nếu các mốc thời gian cách đều nhau, chuỗi được gọi là chuỗi đều (regular time series); ngược lại là chuỗi không đều (irregular time series). Trong thực tế, phần lớn các ứng dụng sử dụng chuỗi đều để thuận tiện cho việc xử lý và mô hình hóa.
Đặc điểm của chuỗi thời gian
Một chuỗi thời gian thường mang theo nhiều cấu trúc tiềm ẩn như xu hướng dài hạn, dao động theo mùa, các thành phần ngẫu nhiên và tính chu kỳ. Việc nhận diện và phân tích các đặc điểm này là điều kiện tiên quyết để xây dựng các mô hình dự báo chính xác. Điểm khác biệt căn bản của chuỗi thời gian so với dữ liệu bảng là tính phụ thuộc theo thứ tự thời gian và không hoán vị được của các quan sát.
Các đặc điểm chính cần lưu ý khi xử lý chuỗi thời gian:
- Tính phụ thuộc theo thời gian (autocorrelation): các giá trị trong chuỗi thường có mối tương quan với các giá trị trước hoặc sau nó.
- Xu hướng (trend): biểu hiện của sự tăng hoặc giảm đều đặn theo thời gian.
- Mùa vụ (seasonality): các mẫu biến động theo chu kỳ thời gian xác định, như theo ngày, tuần, tháng hoặc năm.
- Chu kỳ (cyclical): các dao động không đều, thường do các yếu tố kinh tế hoặc tự nhiên gây ra, khác với mùa vụ ở tính không lặp lại chính xác.
- Ngẫu nhiên (noise): thành phần không có quy luật, thể hiện sự nhiễu loạn trong dữ liệu.
Ví dụ một chuỗi có thể có xu hướng tăng dần do tăng trưởng kinh tế, đồng thời chịu ảnh hưởng bởi mùa vụ như doanh số bán hàng cao vào dịp lễ và có nhiễu từ các sự kiện bất ngờ như đại dịch hoặc thiên tai. Việc phân rã và cô lập các thành phần này là bước quan trọng trong quá trình phân tích.
Các thành phần trong mô hình chuỗi thời gian
Một chuỗi thời gian có thể được mô tả như sự kết hợp của các thành phần cơ bản sau: xu hướng (trend), mùa vụ (seasonality), chu kỳ (cycle), và nhiễu (error). Việc mô hình hóa chuỗi thời gian dựa trên ý tưởng tách rời và phân tích từng thành phần này, giúp hiểu rõ động lực của chuỗi và cải thiện độ chính xác của dự báo.
Hai mô hình phân rã phổ biến nhất là mô hình cộng (additive) và mô hình nhân (multiplicative), được biểu diễn như sau:
hoặc
Trong đó:
- Yt: giá trị quan sát tại thời điểm
- Tt: xu hướng dài hạn
- St: thành phần mùa vụ
- Ct: chu kỳ kinh tế hoặc xã hội
- εt: nhiễu ngẫu nhiên
Mô hình cộng phù hợp khi các thành phần không phụ thuộc lẫn nhau và có độ lớn tương đối ổn định, trong khi mô hình nhân phù hợp khi các thành phần tỷ lệ theo mức độ tổng thể. Việc lựa chọn mô hình phù hợp phụ thuộc vào dạng dữ liệu thực tế và mục tiêu phân tích.
Phân loại chuỗi thời gian
Chuỗi thời gian có thể được phân loại theo nhiều tiêu chí khác nhau tùy thuộc vào cấu trúc và bản chất của dữ liệu. Một số tiêu chí phân loại phổ biến như sau:
- Theo loại dữ liệu:
- Chuỗi đơn biến (univariate): chỉ quan sát một biến duy nhất qua thời gian.
- Chuỗi đa biến (multivariate): gồm nhiều biến quan sát đồng thời, có thể tương quan với nhau.
- Theo đặc trưng thời gian:
- Chuỗi đều: các thời điểm quan sát cách đều nhau (ví dụ: mỗi giờ, mỗi ngày...)
- Chuỗi không đều: dữ liệu ghi nhận tại các thời điểm không cố định, như sự kiện bất thường hoặc dữ liệu log hệ thống.
- Theo tính chất ngẫu nhiên:
- Chuỗi dừng (stationary): đặc điểm thống kê như trung bình, phương sai không thay đổi theo thời gian.
- Chuỗi không dừng (non-stationary): có xu hướng hoặc mùa vụ rõ rệt, cần xử lý trước khi phân tích.
Bảng sau minh họa một số ví dụ phổ biến của các loại chuỗi thời gian:
Loại chuỗi | Ví dụ | Đặc điểm |
---|---|---|
Đơn biến đều | Nhiệt độ trung bình theo ngày | Các điểm thời gian cách đều, chỉ một biến |
Đa biến đều | Lượng mưa, áp suất và nhiệt độ theo giờ | Nhiều biến cùng thời điểm, cách đều |
Đơn biến không đều | Thời gian xảy ra động đất | Các sự kiện ngẫu nhiên, không cách đều |
Chuỗi không dừng | Giá cổ phiếu | Thay đổi xu hướng, có mùa vụ hoặc chu kỳ |
Ứng dụng của chuỗi thời gian
Chuỗi thời gian được ứng dụng rộng rãi trong nhiều lĩnh vực từ nghiên cứu học thuật đến sản xuất công nghiệp và ra quyết định trong doanh nghiệp. Tính chất có cấu trúc theo thời gian giúp chuỗi thời gian trở thành công cụ cốt lõi trong việc phân tích, giám sát và dự báo các hiện tượng động.
Trong lĩnh vực tài chính, chuỗi thời gian được dùng để phân tích biến động giá cổ phiếu, lãi suất, tỷ giá và lợi suất trái phiếu. Các nhà đầu tư và tổ chức sử dụng mô hình chuỗi thời gian để xây dựng chiến lược giao dịch và quản lý rủi ro. Trong khí tượng học, chuỗi thời gian hỗ trợ dự báo nhiệt độ, lượng mưa, áp suất khí quyển và sự hình thành bão. Trong y tế, mô hình chuỗi thời gian giúp giám sát dịch bệnh theo thời gian thực, ví dụ theo dõi số ca nhiễm hàng ngày để phát hiện xu hướng tăng nhanh.
Một số ứng dụng thực tế khác:
- Sản xuất: phát hiện lỗi thiết bị thông qua dữ liệu cảm biến
- Giao thông: dự báo lưu lượng phương tiện để tối ưu hóa đèn tín hiệu
- Năng lượng: dự báo tiêu thụ điện theo giờ để phân bổ tải
- Thương mại điện tử: phân tích hành vi người dùng và tối ưu thời gian gửi thông báo
Xem thêm ví dụ tại Forecasting: Principles and Practice – Applications.
Phương pháp phân tích chuỗi thời gian
Phân tích chuỗi thời gian nhằm mục đích hiểu được các đặc điểm nội tại của chuỗi như xu hướng, mùa vụ và cấu trúc phụ thuộc. Một số kỹ thuật thống kê và trực quan thường dùng bao gồm phân rã chuỗi, biểu đồ autocorrelation (ACF) và partial autocorrelation (PACF), kiểm định tính dừng và phân tích phổ.
Kỹ thuật phân rã giúp tách riêng các thành phần xu hướng và mùa vụ. Một cách phổ biến là sử dụng trung bình trượt (moving average) để làm mượt chuỗi và xác định xu hướng. Mùa vụ có thể được phát hiện thông qua các chỉ số mùa hoặc phương pháp biến đổi Fourier. Phân tích ACF và PACF là công cụ quan trọng để xác định độ trễ và mối tương quan tự động trong dữ liệu.
Ví dụ kiểm định Augmented Dickey-Fuller (ADF) kiểm tra tính dừng của chuỗi thời gian bằng giả thuyết:
Nếu giá trị p-value < 0.05, ta bác bỏ giả thuyết và kết luận chuỗi là dừng. Một số kiểm định khác như KPSS hoặc Phillips-Perron cũng được sử dụng để xác thực.
Mô hình dự báo chuỗi thời gian
Dự báo chuỗi thời gian là bước quan trọng giúp tiên đoán các giá trị tương lai dựa trên dữ liệu quá khứ. Các mô hình kinh điển trong thống kê bao gồm:
- ARIMA: mô hình kết hợp tự hồi quy (AR), sai phân (I) và trung bình trượt (MA)
- SARIMA: mở rộng ARIMA để xử lý thành phần mùa vụ
- Exponential Smoothing: các phương pháp Holt và Holt-Winters
Mô hình ARIMA tổng quát được biểu diễn bằng:
trong đó:
- là toán tử trễ:
- là bậc sai phân để làm dừng chuỗi
- và là các đa thức tương ứng với phần AR và MA
Trong học máy, mạng nơ-ron hồi tiếp như LSTM (Long Short-Term Memory) được ứng dụng rộng rãi trong dự báo chuỗi dài hạn, nhờ khả năng ghi nhớ trạng thái trước đó và học các mẫu phi tuyến phức tạp. Ngoài ra, mô hình Prophet của Meta (Facebook) được thiết kế để dễ triển khai, có khả năng xử lý tốt mùa vụ và dị thường, đặc biệt hiệu quả trong lĩnh vực kinh doanh.
Xem thêm tại Facebook Prophet Documentation.
Chuẩn bị và tiền xử lý dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian cần được tiền xử lý kỹ lưỡng trước khi phân tích hoặc huấn luyện mô hình. Các bước tiền xử lý phổ biến bao gồm làm sạch, chuẩn hóa và biến đổi chuỗi nhằm đảm bảo tính ổn định và phù hợp với giả định của mô hình.
Các bước thường gặp:
- Xử lý giá trị thiếu: lấp đầy bằng phương pháp nội suy tuyến tính, giá trị trung bình, hoặc phương pháp gần đúng.
- Chuẩn hóa tần suất: đối với chuỗi không đều, cần resample về tần suất đều như hàng ngày hoặc hàng giờ.
- Làm mượt dữ liệu: dùng trung bình trượt để giảm nhiễu ngẫu nhiên.
- Biến đổi log hoặc Box-Cox: để ổn định phương sai, đặc biệt trong chuỗi có dao động tăng dần theo thời gian.
Ví dụ biến đổi Box-Cox giúp chuyển chuỗi không ổn định thành chuỗi gần dừng, từ đó cải thiện độ phù hợp của mô hình:
Đánh giá mô hình chuỗi thời gian
Đánh giá độ chính xác của mô hình dự báo là bước quan trọng để đảm bảo tính thực tiễn và khả năng tổng quát hóa. Một số chỉ số đánh giá thường dùng:
- MAE: trung bình giá trị tuyệt đối sai số
- RMSE: căn bậc hai của sai số bình phương trung bình
- MAPE: sai số phần trăm tuyệt đối trung bình
Ví dụ công thức RMSE:
Kỹ thuật kiểm định Ljung-Box được dùng để kiểm tra phần dư của mô hình còn tương quan hay không. Ngoài ra, phương pháp backtesting giúp kiểm tra mô hình trên các tập dữ liệu chưa thấy bằng cách mô phỏng quá trình dự báo trong thực tế.
Tài liệu tham khảo
- Hyndman, R.J., Athanasopoulos, G. Forecasting: Principles and Practice (3rd ed.)
- Stoffer, D. Time Series Analysis and Its Applications with R Examples (4th Edition)
- Machine Learning Mastery – Time Series Forecasting
- Facebook Prophet Documentation
- James, G. et al. An Introduction to Statistical Learning
Các bài báo, nghiên cứu, công bố khoa học về chủ đề chuỗi thời gian:
- 1
- 2
- 3
- 4
- 5
- 6
- 10